Chi 出 | 人 


第 64 卷 第 11 期 2020 年 6 月 


基于 超 网 络 的 微 博 相似 度 及 其 在 微 二 与 情 主题 


发 现 中 的 应 用 


重 梁 晓 贺 田 儒雅 张 学 福 
中 国 农业 科学 院 农业 信息 研究 所 北京 100081 


吴 区 


摘 要 : [目的 /意义 ] 准确 地 计算 微 博 相 似 度 可 以 提高 微 博 主 题 挖 气 效 率 , 对 与 情 治理 、 保 障 信息 安全 具有 实践 意义 。 针 
对 微 博 文本 语义 稀 跤 高 维 的 问题 ,提出 一 种 融入 微 博 非 文本 特征 的 超 边 相 似 度 算 法 。 [ 方法 “过程 ] 分 析 微 博 与 
情 发 生机 制 ,利用 超 网 络 模 型 表示 微 博 与 情 主题 形成 过 程 ,通过 计算 各 层 子 网 相似 度 及 各 层 子 网 对 主题 形成 的 贡 
献 度 构 建 超 边 相似 度 算法 。[ 结果 /结论 ] 研究 发 现 ,论文 所 提出 的 相似 度 方法 有 助 于 提升 微 博 与 情 信息 的 主题 聚 
类 效果 ,特别 是 对 于 文字 性 表述 相似 程度 高 的 微 博信 息 , 具 有 明显 的 主题 区 分 性 。 
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微 博 文本 具有 内 容 得 ,信息 描述 能 力 弱 .主题 分 散 


人 随 着 Web2.0 时 代 的 到 来 , 微 博得 到 了 莲 勃 发 展 ， 
省 通 网 民 、 网 络 名 人 ,新闻 媒体 和 政府 机 构 都 将 微 博 作 
尖 庆 下 信息 ,发表 评论 的 主要 途径 "1。 微 博 是 一 种 用 
户 六 生 内 容 ( User Generated Content, UGC) 模 式 ,用 户 
避 遂 文字 表情 符号 .图 片 .视频 和 直播 等 多 种 媒体 形 
式 守 由 地 表达 对 某 一 事件 的 观点 和 看 法 ,这 些 信息 通 
过 微 博 用 户 的 关注 ,转发 .评论 关系 实现 以 点 到 面 的 忆 
速 伪 播 ,这 极 易 形成 与 情事 件 。 进 行 微 博 与 情 信息 挖 
据 对 预测 未 来 事件 .保障 信息 安全 ,监测 与 情 动态 具有 
重要 意义 ”。 面 对 大 规模 微 博文 本 ,如 何 高 效 ,准确 地 
识别 主题 信息 已 经 成 为 了 人 们 研究 的 热点 ”。 微 博文 
本 的 相似 度 算法 对 于 理解 和 分 析 文本 起 着 至 关 重要 的 
作用 ,被 大 量 用 于 微 博文 本 分 类 中 、 雍 类 中 用 户 扒 
荐 "等 多 个 领域 ,而 相似 度 算法 的 优 劣 决定 着 这 些 应 
用 的 性 能 。 开 展 微 博 相似 度 研究 不 仅 能 为 我 国 微 博导 
情 监测 提供 理论 方法 支持 ,还 为 我 国 与 情 管理 提供 决 
策 支 持 。 


等 特点 ,给 微 博 相 似 度 研究 带 来 挑战 。 目 前 针对 微 博 
类 短文 本 的 相似 度 研 究 存 在 的 主要 难题 是 数据 语义 稀 
玻 , 本 研究 提出 一 种 在 文本 分 析 基 础 上 融入 微 博 非 文 
本 特征 的 超 边 相 似 度 算 法 ,扩展 了 相似 度 算法 分 析 对 
象 ,实现 了 微 博 关联 关系 的 深层 次 识别 ,提高 了 微 博 与 
情 主题 识别 准确 度 。 


2 相关 研究 


2.1 微 博 相似 度 分 析 

目前 ,研究 人 员 已 经 提出 了 一 些 关 于 微 博 短文 本 
的 相似 度 计 算 方 法 ,这 些 方法 大 致 分 为 两 大 类 :一 是 针 
对 微 博 短 文本 内 容 特 征 ,改进 相似 度 算 法 。 包 括 增 加 
外 部 语料库 方法 ,如 A，Islam 等 “首先 构建 最 长 公共 
子 序列 ,借助 外 部 语料库 的 文本 语义 相 性 关系 计算 文 
本 的 语义 相似 度 。H. Ma 等 ”通过 挖掘 语料库 中 具有 
共 现 关系 和 类 别 同 向 关系 的 频繁 项 集 ,构建 特征 词 相 
似 性 矩阵 来 扩展 短文 本 特征 ;挖掘 短 文本 内 容 特 征 方 
法 ,如 也 Wen 等 ”通过 对 特征 词 进行 词性 标注 和 概 
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念 标注 ,侧重 对 文本 语义 相似 性 的 计算 , 黄 贤 英 等 
基于 词 形 和 词义 构造 了 文本 公共 块 ,依据 公共 块 的 词 
项 数量 和 组 和 顺序 度量 文本 相似 性 。 二 是 借助 社会 网 
络 分 析 方 法 ,引入 微 博 的 非 文 本 特征 进行 相似 度 计算 。 
其 中 ,引入 用 户 特 征 研 究 最 为 广泛 ,相关 研究 主要 集中 


舆情 反腐 超 网 络 模型 。 这 些 已 有 的 超 网 络 模型 包含 的 
村 征 信息 过 少 , 不 足以 揭示 微 博 与 情 主 题 发 生 过 程 , 旦 
对 各 层 子 网 的 揭示 深度 不 够 。 笔 者 在 前 序 研究 中 已 经 
基于 与 情 传播 要 素 构 建 了 包含 4 层 子 网 的 微 博 与 情 主 
题 发 现 超 网 络 模型 % ,本 研究 在 该 基础 上 深入 分 析 超 


在 引入 用 户 自身 背景 信息 构建 相似 度 公式 .引入 用 
户 关系 如 关注 与 被 关注 关系 \ 共 同 邻 居 好 友 数 量 
构建 相似 度 公 式 。 随 着 研究 的 深入 ,一 些 研究 者 也 开 
始 考 虑 将 时 序 特征 "情感 特征 "等 引入 到 相似 度 计 
算 公式 中 。 

这 些 算法 虽然 在 一 定 程度 上 都 提高 了 微 博 类 短文 
本 的 相似 度 计算 效率 ,但 仍然 存在 缺陷 ,如 针对 文本 内 


网 络 模型 同 质 节点 与 异 质 节点 间 的 关联 关系 ,设计 一 
套 超 边 相似 度 算法 ( SuperEdgeSimilarity ) ,是 对 现 有 超 
网 络 方法 中 超 边 分 析 方 法 研究 的 有 益 补 充 。 
3 ” 超 边 相似 度 算法 
3.1 微 博 与 情 主题 发 现 超 网 络 模型 建 模 

现实 社会 事件 借助 微 博 平台 的 关注 与 转发 机 制 建 


容 特征 改进 的 相似 度 算法 ,虽然 考虑 了 文本 的 语义 信 
秀 r 但 是 在 处 理 信息 量 少 \ 内 容 稀疏 的 微 博文 本 时 , 普 
遍 丁 在 着 准确 性 低 , 时间、 空间 消耗 大 的 问题 ;引入 微 
博 非 文本 特征 的 相似 度 算法 一 定 程度 扩展 了 微 博 的 信 
艺 半 容 , 但 现 有 算法 还 都 停留 在 简单 网 络 层面 ,大 都 只 
是 缉 入 单一 层次 社会 网 络 , 缺 乏 对 微 博 与 情 发 生 过 程 
和 旬 生 关系 数据 的 有 机 融合 。 而 微 博 与 情形 成 是 一 个 复 
克 团 过 程 , 若 要 更 准确 地 挖 气 微 博 与 情 相似 度 , 还 需要 
吉 堪 一 种 更 为 全 面 、 有 效 的 方法 揭示 微 博 熏 情 的 形成 
过 便 。 针 对 上 述 问题 ,本 研究 拟 采 用 超 网 络 (Supemet 


立 用 户 关系 ,实现 信息 (关键 词 .情感 ) 的 分 享 、 传 播 和 
交流 ,形成 微 博 与 情事 件 。 微 博导 情 的 发 后 过 程 ,类 同 
于 现实 社会 的 突 发 事件 ,需要 厘清 5W1H ( When、 
Where .Who Why .How) 六 要 素 的 关系 1。 一 条 微 博 
信息 是 一 个 用 户 在 情感 要 素 和 外 部 环境 信息 驱动 下 发 
布 的 关键 词 ,而 一 个 与 情 事件 由 多 条 微 博 信息 传播 组 
成 。 由 此 , 微 博 与 情形 成 关联 的 实体 包括 微 博 用 户 
(Who) 时序 环境 (When ) 外 了 驱动 力 、 情 感 (How) 内 了 驱 
动力 和 关键 词 ( When )4 类 。 在 此 基础 上 构建 微 博 俩 
情 主题 发 现 超 网 络 模型 ,包含 的 4 层 子 网 ,分 别 是 “ 社 


wi 认 的 思想 和 方法 对 微 博 僵 情 主题 相似 度 进行 更 深 
层 狗 的 研究 ,探究 多 与 情 要 素 与 与 情 主题 形成 的 内 在 
联系 ,就 此 提出 超 边 相似 度 算法 并 进行 与 情 主题 挖掘 。 
相 半 于 传统 文本 挖掘 方法 ,基于 超 网 络 分 析 的 主题 相 
似 岩 研究 方法 可 以 观察 整个 微 博 的 社会 网 络 总 体 结构 
特 箱 ,分 析 更 多 的 指标 ,为 挖 据 具 有 复杂 网 络 特征 的 主 
题 信息 提供 了 可 参照 模型 。 
2.2 起 网 络 分 析 

“ 超 网 络 ” 最 早 由 六 . Sheffi''®] 和 P. Denning 1 提 
出 ,A，Nagumey'" 给 出 了 超 网 络 的 明确 定义 , 指 高 于 
而 又 超 于 现存 网 络 的 网 络 , 它 在 媒 套 ,多 层 、 多 级 和 多 
属性 方面 表现 出 自身 的 优越 性 ,被 广泛 应 用 于 供应 
链 "” ,交通 ”金融 "及 知识 管理 ”等 领域 中 。 目 
前 ,针对 超 网 络 的 研究 主要 集中 在 变 分 不 等 式 . 超 图 和 
系统 科学 3 方面 的 研究 上 ,而 针对 互联 网 文本 研究 
通常 属于 后 两 者 范畴 ,本 研究 属于 系统 科学 范畴 。 超 
网 络 的 多 层级 属性 可 以 很 好 地 描述 网 络 间 的 作用 关 
系 , 一 些 学 者 已 经 党 试 将 超 网 络 方法 应 用 到 微 博 熏 情 
研究 中 ,如 尚 艳 超 等 ”构建 了 话题 和 用 户 两 个 维度 超 
网 络 模型 , 潘 芳 等 ”在 该 基础 上 进一步 考虑 了 网 络 社 
群 与 情 传播 网 络 和 社会 网 络 之 间 的 关系 ,构建 了 微 博 


交 子 网 ”“ 时 序 子 网 ”“ 情 感 子 网 ”和 ”关键 词 子 网 " 。 

(1) 社 交 子 网 A( Social Network ) 表示 参与 微 博 话 
题 讨论 的 微 博 用 户 之 间 的 转发 关系 。 节 点 是 微 博 信息 
发 布 的 用 户 ,以 微 博 信息 的 转发 关系 构造 无 向 边 。 

(2) 时 序 子 网 T(Timing Network ) 表示 微 博 与 情 演 
化 的 时 序 阶段 ,本 文 参照 生命 周期 理论 将 微 博 懒 情 演 
化 划分 为 4 个 阶段 , 即 “ 潜 伏 期 一 发 生 期 一 持 续 期 一 恢 
复 期 ”” 。 节 点 表示 微 博 熏 情 信息 的 演化 阶段 , 相 邻 演 
化 阶段 存在 着 转化 关联 关系 。 

(3 ) 情感 子 网 S( Sentiment Network ) 表示 盟 情 爆发 
时 所 蕴含 的 情感 信息 ,不 同情 感 间 存 在 着 转化 关联 关 
系 。 本 研究 情感 子 网 包含 3 个 节点 ,分 别 是 积极 情感 
节点 、 消 极 情感 节点 和 中 性 情感 节点 。 

(4) 关 键 词 子 网 K( Keyword Network ) 由 微 博文 本 
的 关键 词 构成 ,关键 词 节点 之 间 的 连 线 表示 这 两 个 关 
键 词 在 同 条 微 博 中 出 现 。 

微 博 熏 情 超 网 络 模型 中 4 层 子 网 之 间 通 过 超 边 
(SuperEdge ,SE) 连接 ,SE = | a,, ts,, | ,表示 用 户 
a; 在 时 序 i 外 作用 力 和 情感 5, 内 驱动 力作 用 下 ,发 表 
了 关键 词 万 。 一 条 超 边 即 表 示 为 一 条 微 博 , 此 处 定义 
一 条 超 边 ( 微 博 ) 包 含 一 个 用 户 信息 ,一 个 情感 信息 、 
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一 个 时 序 信息 和 多 个 关键 词 。 文 提出 了 一 套 基 于 超 网 络 的 微 博 相似 度 算法 ,利用 超 


3.2” 超 边 相似 度 算法 

微 博文 本 存在 内 容 短 、 表 达 随 意 、 非 规范 化 等 特 
点 ,导致 微 博 文本 向 量 高 维 且 稀 玻 ,传统 的 相似 度 算 法 
不 能 准确 地 度量 微 博 短 文本 间 的 相似 度 。 基 于 此 ,本 
微 博 与 情 直 网 络 模 弄 


单条 微 博 形成 模型 


本 文 提出 的 算法 考虑 了 不 同 超 边 中 包含 的 关键 词 
构 促 程度 、 转 发 行为 关系 情感 转化 关系 和 所 处 时 序 阶 
段 的 转化 关系 。 在 关键 词 子 网 中 ,两 条 超 边 所 包含 的 
关 倪 | 间 越 相似 , 则 这 两 条 超 边 也 越 可 能 相似 ;在 社交 子 
网 时 ,两 条 超 边 存在 转发 关系 或 转发 行为 越 相似 ,其 所 
人 饼肥 的 关键 词 也 越 可 能 相似 ,这 两 条 超 边 也 越 可 能 相 
似 $ 在 时 序 子 网 中 ,两 条 超 边 同 属于 一 个 时 序 阶段 或 时 
序 陈 段 越 相 近 ,这 两 条 超 边 越 可 能 相似 ;在 情感 子 网 
中 人 两 条 超 边 包 含 的 情感 借 向 相同 且 情 感 代 向 相近 ,这 
两 条 超 边 越 可 能 相似 。 假 设 微 博 与 情 主题 发 现 超 网 络 
模型 共有 N 条 超 边 , 记 为 SE,(1<i<N) ,假设 SE, 和 
5E, 是 待 计算 相似 度 的 两 条 超 边 , 由 此 得 出 以 下 超 边 相 
似 度 算法 : 
SuperEdge ( SE,, SE,) = a x sim* (SE,, SE,) +B x 
sim' (SE,,SE,) +é xsim' (SE,,SE,) +y x sim' (SP SF) 
公式 (1) 
其 中 ,sim*( SE,,5E,) 为 超 边 SE, 和 超 边 SP 的 社交 
相似 度 ,sim (SE,,SE,) 为 超 边 SE, 和 超 边 SR 的 时 序 相 
似 度 ,sim'( SE,,5E,) 为 超 边 SE, 和 超 边 5E, 的 情感 相似 
度 ,sim*( SE, ,SE,) 为 超 边 SE, 和 超 边 SE, 的 关键 词 相似 
度 。a,B,& 和 分 别 为 社交 相似 度 ,时序 相 似 度 ,情感 
相似 度 和 关键 词 相似 度 的 权 值 , 且 满足 :w+B +& +y = 
1 ,具体 数值 利用 层次 分 析 法 确定 。 


《人 包含 多 条 微 博 的 与 情话 题 发 生 模型 ) 


网 络 模 型 模拟 微 博 熏 情 主题 发 生机 制 , 依 据 各 层 子 网 
相似 度 及 不 同 子 网 对 主题 形成 的 贡献 度 构建 超 边 相似 
度 算法 ,如 图 1 所 示 : 


超 边 属性 计算 


微 畏 答 情 主题 聚 类 


1 微 博 熏 情 主题 发 现 超 网 络 模型 及 超 边 相似 度 算法 


3.3 超 网 络 模型 中 超 边 属性 计算 

(1) 社 交 相 似 度 sim*( SE, ,SE,)。 利 用 社交 子 网 中 
户 的 转发 关系 计算 超 边 的 社交 相似 度 。 设 微 博 与 情 
主题 发 现 超 网 络 模 型 的 社交 子 网 包含 m 个 节点 ,p;eP 
(1i<m) 是 社交 子 网 节点 (用 户 ) 的 集合 ,P 中 任意 
两 个 节点 的 相似 度 计算 基于 节点 间 的 转发 关系 。 参 照 
布尔 模型 思想 ,社交 子 网 中 的 转发 关系 可 以 用 一 个 
矩阵 C 表示 ， 


cC=C, 其 cu=| 


er | 


1 ,节点 i 与 节点 j 存在 转发 关系 
0, 节 点 i 与 节点 j 没 有 转发 关系 
公式 (2) 
利用 row, = (CiisCiz,'", Cin) (i=1 ,2,…,m) 表 
示 超 边 SEi 的 转发 关系 , 则 超 边 SE; 和 超 边 SE; 的 社交 
相似 度 计算 公式 为 : 


sim" (SE,, SE,) = sim, = 


(row,, row;) 


公式 (3) 


| rowi || | row; ll 


其 中 ((row,row) = 守 CiyCiss 1 roo | = ( 
Oy 

(2) 时 序 相似 度 sim'( SE,,SE,) 。 微 博 由 于 其 快速 
转发 机 制 ,使 得 熏 情 事件 会 在 短 时 间 内 引起 人 们 大 量 
的 转发 和 讨论 , 内容 相 似 的 微 博 往往 在 相同 时 间 段 内 
集中 发 布 ””。 这 意味 着 ,在 一 个 话题 的 发 生 期 ,人 
们 会 频繁 地 使 用 相似 的 关键 词 来 进行 话题 讨论 ,而 随 
着 讨论 地 深入 ,话题 会 发 生 演化 ,人 们 讨论 话题 所 使 用 
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的 关键 词 也 会 随 之 更 新 ,但 是 这 些 更 新 的 关键 词 是 与 
演化 后 的 话题 密切 相关 的 ,所 以 更 新 的 关键 词 彼 此 也 
是 相似 的 。 因 此 ,相同 时 间 段 产生 的 关键 词 最 可 能 相 
似 , 而 关键 词 所 处 的 阶段 越 相近 ,其 产生 的 关键 词 越 可 
能 相似 ” 。 本 文 将 微 博 与 情 演化 阶段 (5 ) 划分 为 潜伏 
期 (4 ) 发 生 期 (1,) 、 持 续 期 (1) 和 恢复 期 期 ( 碎 )4 个 
阶段 。 

判断 完 时序 子 网 的 时 序 阶段 类 型 ,可 对 不 同 超 边 
所 包含 的 时 序 演化 关系 进行 度量 ,也 就 是 计算 时 序 相 
似 度 。 若 SE; 和 SE; 时 间 节 点 处 于 同一 个 时 序 阶段 (4 
-t=0) , 则 这 这 两 条 超 边 的 时 序 相 似 度 为 1, 即 完全 
相似 ; 若 SE; 和 SE, 的 时 间 节 点 处 于 不 同时 序 阶段 , 则 
ee edn 近 , 其 时 序 相似 度 越 大 ,参照 概率 模 
下 思想 ,计算 公式 如 下 : 


1 


@ ， t, #1 
sim (SE, ,SE,) = sim,; = | 
1, 


19v 


A 
公式 (4) 
二 守 和 为 不 同 奥 情 演化 阶段 ,其 中 i 和 j 的 取 值 范 
且 (1.2,3,4) ,为 了 区 分 不 同时 序 阶段 的 相似 度 关 
大 . 来 用 等 差 数据 对 时 序 阶段 ;进行 赋值 ,此 处 综合 考 
碟 四 个 相似 度 取 值 的 均衡 性 , 令 4 =1.1, =3.4 =5.4 
人 

:二 G) 情 中介 度 sr(38 2)。 由 于 征 二 册 情 包 
命 人 i 会 脉动 "和 “公众 情绪" ,情感 信息 是 微 博 自 媒 
体 刁 征 的 一 个 体现 ,通常 表达 相位 观点 的 微 博 其 情感 
贷 厨 也 趋 于 一 致 , 同 理 , 情 感 趋 于 一 致 的 微 博 更 可 能 相 
tO 

情感 相似 度 计算 包含 如 下 3 个 步 又 ， 

第 一 步 是 构建 情感 词典 .识别 超 边 中 的 情感 词 。 
通过 分 析 微 博文 本 情感 词 特征 和 表达 习惯 ,总 结 出 微 
博 情感 极 性 判断 关键 特征 要 素 , 包 括 情 感 词 . 表 情 符 
号 .否定 词 和 程度 词 ,提取 这 类 情感 要 素 有 助 于 准确 计 
算 超 边 的 情感 强度 。 基 于 上 述 分 析 , 本 研究 借鉴 安 咒 
等 "的 研究 成 果 构 建 了 包含 基础 情感 词典 .否定 记 


4.00. 


表 1 表情 符号 词典 (部 分 ) 


表情 符号 极 性 强度 表情 符号 极 性 强度 

[ 抓 狂 ] 2 9 [ 赞 ] 1 7 
[ 亩 视 ] 2 9 [ 笑 ery] 1 7 

怒 ] 2 9 [ 嘻 哮 1 7 

吐 ] 2 7 haha 1 5 

哼 ] 2 5 good] 1 5 
[ 黑 线 ] 2 5 [加 油 ] 1 5 
[哈欠 ] 2 3 [可 爱 1 3 
[二 哈 ] 2 3 [ 神奇 女 侠 ] 1 3 
[白眼 ] 2 3 [ 饶 嘴 1 3 


通过 收集 微 博 常用 的 否定 词 构建 了 和 否定 词 表 ( 见 
表 2) 。 参 照 Hownet 提供 的 程度 词 ,并 结合 微 博 语言 特 
色 进 行 调整 ,构建 了 本 文 的 程度 词典 ,根据 其 对 情感 词 
强度 的 调整 力度 分 为 7 个 等 级 , 权 值 分 别 是 0.4.、0.6、 
0.8.1.1.2.1.4 和 1.6, 以 0.2 逐 级 递增 , 见 表 3。 
表 2 否定 词 表 (部 分 ) 


没 否 十 不 别 勿 未 无 


不 曾 不 要 未 必 不 太 尚未 毫 不 ”不 至 于 ” 绝 非 
表 3 程度 副词 表 ( 部 分 ) 
权 值 程度 词 
0.4 略 \ 稍 \ 稍 微 . 有 些 、 略 为 
0.6 较 、 蛮 一 点 儿 \ 略 加 \ 或 多 或 少 
0.8 挺 \ 越 颇 、 越 发 .愈加 、 相 当 
1 没有 程度 副词 
1.2 那么 \ 不 少 、 更 为 .何止 
1.4 实在 ,很 , 特 、 太 \ 忒 ,更 加 
1.6 极 、 极 度 、 格 外 、 尤 其 特别 ,非常 


第 二 步 进 行 超 边 情感 强度 计算 。 根 据 构建 的 情感 
词典 ,识别 超 边 中 的 情感 特征 词 极 性 、 强 度 , 表 情 符号 
极 性 、 强 度 、 否 定 词 的 个 数 和 程度 副词 的 调整 强度 。 借 
鉴 唐 晓 波 ” 等 构建 的 情感 元 组 的 思想 ,此 处 采用 情感 
特征 元 组 表示 每 条 超 边 的 情感 特征 ,$ = | 情感 极 性 \ 强 
度 ; 表 情 符号 极 性 强度 ;否定 词 个 数 ;程度 副词 调整 强 
度 | ,所 有 情感 元 组 元 素 均 不 是 情感 元 组 必 备 元 素 , 即 
存在 超 边 的 情感 元 组 为 空 的 情况 。 对 每 条 超 边 构建 特 
征 情感 元 组 , 超 边 的 情感 强度 计算 公式 为 : 


典 、 程 度 副词 词典 和 表情 符号 词典 的 情感 分 析 法 。 其 
中 ,情感 基础 词典 选用 大 连理 工大 学 提供 的 中 文 情感 
词汇 本 体 库 ” ;用户 在 微 博 上 发 布 信息 时 常 习惯 附加 
感情 符号 表达 情感 ,分 析 表 情 符号 的 情感 极 性 可 以 畏 
助 情感 分 析 , 本 文 参照 大 连理 工大 学 对 情感 词 的 打分 
情况 对 微 博 平台 上 自 定义 的 84 个 情感 符号 进行 极 性 
判断 并 逐一 打分 ,具体 参照 表 1: 


-I 


C1 x Twei, (adv) x Ys(w,) 
全 全 S$ 
sent (1) = n 


0, S=9 


公式 (5) 
其 中 ,seni(i) 为 超 边 i 的 情感 强度 ,情感 元 组 为 空 
时 , 即 不 存在 情感 词 ,此 时 超 边 情感 强度 记 为 0。s(wi) 
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(11) .77=86; 


inaxi 


AX iv 合作 基干 | 
A | 天 其 Ul 


为 参照 基础 情感 词典 和 符号 词典 计算 的 情感 强度 ,这 
里 只 考虑 贬义 ,讲义 和 中 性 3 个 极 性 ,贬义 词 强度 设 
为 : -1、-3、-5、-7 和 -9, 襄 义 词 情感 强度 设 为 1、 
3 .5.7 和 9 ,中 性 词 情感 感 强度 为 0; 3s(w ) 为 超 边 i 
中 全 部 情感 词 和 情感 符号 词 的 情感 强度 之 和 ,n 为 超 
边 中 情感 词 和 情感 符号 的 总 个 数 ; wei( adv) 为 情感 记 
前 后 不 超过 3 个 词 范围 内 的 程度 副词 ,wei, (ad ) 为 超 
边 中 i 程度 副词 p 的 情感 调整 强度 ; [wei, (dd ) 表示 
超 边 中 i 全 部 mn 个 程度 副词 情感 调整 强度 的 连 乘 积 ; 
六 s(w) 为 微 博 i 中 全 部 情感 词 + 符号 词 的 情感 强度 六 
为 超 边 i 中 否定 词 的 个 数 。 

第 三 步 是 计算 超 边 的 情感 相似 度 。 由 第 二 步 可 以 
获得 超 边 的 情感 强度 ,本 文 情感 强度 数值 前 面 的 符号 
(本 多 . 负 号 或 0) 来 表示 每 条 超 边 可 能 存在 的 3 种 情 
感 赵 性 , 即 ene(i) >0, 说 明 超 边 蕴含 着 积极 的 情感 
scalebSi) <0, 说 明 超 边 蕴含 着 消极 的 情感 ;seni(i) = 0， 
说 明 超 边 殖 含 的 情感 是 中 立 的 。 判 断 完 超 边 的 情感 极 
性 条 情感 强度 ,可 进行 情感 相似 度 计算 , 令 sent(i) 和 
v 人 7) 表示 任意 两 条 超 边 的 情感 强度 ,二 者 差 值 越 小 
则 两 条 超 边 的 情感 相似 度 越 大 ,反之 , 若 二 者 差 值 越 大 
几 玛 条 超 边 的 情感 相似 度 越 小 。 将 超 边 5E, 和 超 边 
5 记 情感 相似 度 , 记 为 sim'(SE, ,SE,) , 则 


Ee Isent(i) — sent(j) 1 ,sent ( i) Zsent (站 


1 | = sent(]) 


公式 (6) 
己 (4) 关 键 词 相似 度 sim'( SE,,SE,) 。 关 键 词 相似 度 
即 扮 传统 相似 度 算法 的 度量 对 象 , 本文 分 别 选择 经 典 
的 向 量 空间 模型 "表示 关键 词 子 网 的 微 博文 本 特征 、 
TF-IDF 方法 计算 关键 词 权重 5 .余弦 相似 度 算法 5 
作为 关键 词 相 似 度 度 量 方法 。 将 SE, 和 SE, 映射 到 
维 向 量 空间 中 ,可 表示 为 SB = (wj,w,,，…, w,) 和 SE, 
= (w’1,w 2,…, w'n) ,基于 词 频 特征 的 超 边关 键 词 
相似 度 为 : 


Ly 了 
Zw; xw, 


sim' (SE , SE, ) = 公式 (7) 


了 
式 中 ,zw =tf xidfy ,tf 为 关键 词 7 在 SE, 中 出 现 
的 次 数 ( 即 TF 值 ) ;idfs =lg(N/n) ,N 为 所 有 超 边 数 ,n 
为 关键 词 7, 在 所 有 超 边 中 出 现 的 总 次 数 。 
3.4 ”基于 层次 分 析 法 的 特征 权 值 计算 
层次 分 析 法 (The analytic hierarchy process , 简称 
AHP) 可 以 有 效 分 解 目 标 问题 ,从 不 同 层次 进行 分 


析 比 较 , 实 现 定 性 与 定量 结合 分 析 的 决策 方法 。 本 文 
利用 层次 算法 计算 超 边 相 似 度 不 同 要 素 的 特征 权 值 ， 
分 成 如 下 4 个 步骤 : 

(1) 构 建 层次 结构 模型 。 通 过 深入 分 析 微 博 与 情 
主题 的 发 生机 制 , 分 解 成 2 层 层次 结构 体系 , 据 此 构建 
微 博 与 情 超 边 相 似 度 层 次 结构 模型 ,如 图 2 所 示 : 


目标 层 
微 博 与 情 超 边 相似 度 


十 


社交 相似 度 时 序 相似 度 情感 相似 度 关键 词 相似 度 | 准则 


图 2 超 边 相似 度 层次 结构 模型 


(2) 构 建 比较 矩阵 。 分 析 微 博 熏 情 主题 多 特征 要 
素 ,关键 词 特征 是 对 微 博 文本 内 容 的 揭示 ,是 微 博 与 情 
主题 发 现 的 主要 分 析 对 象 ,所 以 对 其 赋予 较 高 权重 ; 情 
感 特征 作为 文本 内 容 揭示 的 一 部 分 ,属于 次 重要 特征 ; 
社交 特征 和 时 序 特征 从 侧面 影响 微 博 与 情 主 题 的 形 
成 , 且 较 前 两 者 较 弱 ,并 列 排 在 第 三 位 。 据 此 构建 的 比 


较 和 矩阵 如 表 4 所 示 : 
表 4 比较 矩阵 
相似 性 社交 相似 性 关键 词 相似 性 情感 相似 性 ”时 序 相似 性 
社交 相似 性 1 1/6 1/4 1 
时 序 相 似 性 1 1/6 1/4 
情感 相似 性 1 4/6 1 4 
关键 词 相 似 性 6 1 6/4 6 


(3) 计 算 相对 权重 。 依 据 特征 值 与 特征 向 量 的 计 
算 公 式 :4 到 = As 柬 , 计 算得 出 比较 矩阵 的 特征 向 量 


ma 


4。 

(4) 一 致 性 检测 。 综 合 考虑 一 致 性 指标 (C7) 和 随 
机 一 致 性 指标 (RI) 双 指标 分 析 ,本 文 构 建 比 较 和 矩阵 通 
过 一 致 性 检测 。 所 以 比较 矩阵 A 所 对 应 的 特征 向 量 可 
以 作为 权 值 ,可 得 到 权 值 向 量 到 = [0. 083 ,0. 500， 
0.33 ,0.083 ] , 即 基 于 社交 特征 的 微 博 相似 度 权 值 a = 
0. 083 ,基于 时 序 特征 的 微 博 相似 度 权 值 B = 0. 083 , 基 
于 情感 特征 的 微 博 相似 度 权 值 y = 0.333 ,基于 关键 词 
特征 的 微 博 相似 度 权 值 &=0. 500。 
4 实验 与 分 析 

由 于 相似 度 算 法 的 数值 具有 主观 性 ,为 了 体现 相 
似 度 方法 的 具体 效率 ,本 文 将 超 边 相似 度 计算 方法 应 
用 于 聚 类 问题 。 通 过 观察 聚 类 结果 来 衡量 相似 度 计算 
效果 。 具 体操 作 流程 参照 图 3 所 示 : 
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| 


原始 微 博 数据 集 
| 歼 据 预 处 理 
数据 预 处 理 
了 | 情感 词典 
微 博 用 户 数据 ( 微 博时 序数 据 | 微 博文 本 数据 _ | 基础 情感 词典 | | 否定 词典 
} i 
Y 2 程度 副词 词典 | 表情 符号 词典 
户 特征 提取 | | 时 这 特征 提取 关 名 13 特 征 | | | | 情感 特征 提 囊 
特征 实体 及 村 
联 关系 提取 户 特征 及 时 序 特 征 及 关键 词 特 征 及 / / 情感 特征 及 特征 情感 
1 关系 语料库 关系 语料库 关系 语料库 / / 关系 语料库 /元 组 
” 汪 情感 强度 计算 
户 相似 度 计算 相位 计划 人 人 RE 
相似 度 计算 
1 层次 分 系 ”| | 超 边 相似 度 计 和 
2 
主题 聚 类 | 超 边 相似 度 府 关 —” 效果 评价 


有 
4GN 实验 数据 说 明 
己 术 研究 的 数据 集 为 新 浪 微 博 平台 ,以 “无 籽 葡 区 
aadj 避 孕 药 "为 关键 词 ,监测 时 间 为 2016 年 8 月 27 日 
-G16 年 9 月 15 日 ,获取 “无 籽 葡 萄 系 打 避孕 药 "这 
人 省 言 所 包含 的 与 情 信息 ,具体 包括 ID 号 .文本 内 容 、 
ee .转发 微 博 账号 .转发 微 博 内 容 。 
剔除 明显 无 关 微 博 和 相同 微 博 ( 同 用 户 名 . 同 ID 号 、 同 
时 亲 的 微 博 ) ; 去掉 停 用 词 . 超 链接 (URL) 和 _ 些 无 关 
等 襄 (“#、【 】) ;对 于 转发 微 博 ,去 掉 @ 姓名 ,将 转 
发 徽 博 内 容 提前 。 初 步 清 洗 后 得 到 3 889 条 数据 , 话 
题 参 与 者 共 3 600 人 。 由 信息 管理 学 研究 人 员 依据 网 
络 钢 情事 件 传播 规律 人 工 总 结 出 “无 籽 葡 萄 系 打 避孕 
药 ” 微 博 事件 的 主旨 ,并 以 此 为 依据 对 微 博 数据 集 进 行 
主题 类 别 标注 。 依 此 得 到 ,所 涉 与 情事 件 包 含 了 谣言 
发 起 (所 ) .加深 ( 埠 ) 政府、 科研 部 门 尽 谣 ( 始 . 抽 ) . 谣 
言 挫 毁 (将 ) .谣言 后 果 ( 拓 ) .谣言 虚假 性 分 析 ( 执 ) 、 呼 
吁 追 责 造 放 者 ( 净 )8 个 子 主题 ,具体 内 容 如 下 : 

要 ,无 籽 葡 萄 系 打 避 孕 药 ,不 敢 吃 葡萄 ,谣言 发 起 ; 

把 ,水 果 商 贩 和 果农 对 话 食品 披露 ,无 子 葡萄 喷洒 
了 避孕 药 ,果农 不 吃 ; 

码 .引发 其 他 食品 安全 联想 ,对 政府 .社会 不 信任 ; 

二 ,专家 辟谣 ,无 籽 葡 萄 是 通过 农业 技术 手段 培 
育 ,使 用 的 是 一 种 叫做 赤 霉 素 的 生长 调节 剂 ,与 避孕 药 
无 关 ; 

区 ,政府 辟谣 ,呼吁 大 家 不 要 信 谣 言 . 传 谣 ; 

折 .谣言 致 葡萄 滞销 坑害 果农 ; 


3 ”基于 超 边 相似 度 算法 的 微 博 舆情 主题 聚 类 分 析 流 程 


#7、 从 常识 分 析 谣 言 的 虚假 性 :避孕 药 成 本 高 ,不 
可 能 用 到 和 葡萄 上 ,人体 激素 不 会 对 植物 有 效 ; 

站 .造谣 者 无 德 ,呼吁 相关 部 门 加强 监 管 .严惩 造 
谣 者 。 

每 个 子 主题 所 包含 的 微 博 数量 如 表 5 所 示 : 


表 5 微 博 子 主题 划分 信息 
子 主题 类 别 可 把 要 机 新 关机 卉 
微 博 数量 40 10 gg2 84 358 30 9 7 
(条 ) 


4.2 实验 过 程 

采用 Python 编程 调用 中 国 科 学 院 的 NLPIR 分 词 
代码 对 清洗 后 的 数据 进行 分 词 处 理 ,为 了 提高 分 词 效 
果 , 本 研究 从 搜狗 词 库 中 的 农业 词 库 中 筛选 部 分 专 术 
语 , 如 赤 霉 素 、 植 物 激素 .动物 技术 、 单 倍 体育 种 等 添加 
至 用 户 词 典 导 和 人 分词 系统 。 

对 时 序 特征 提取 前 , 先 要 确定 与 情事 件 时 序 演化 
阶段 的 具体 时 间 节 点 。 统 计 新 浪 微 博 中 所 涉 “ 无 籽 葡 
萄 系 打 避孕 药 " 舆情 事件 的 微 博 发 布 数量 变化 ( 见 图 
4) ,本 文 对 所 研究 的 与 情 案 例 进行 僵 情 传播 周期 的 切 
分 ,周期 分 为 4 个 阶段 :潜伏 期 (t1,8 月 27 日 到 9 月 
3 ) .发 生 期 (1,,9 月 4 日 至 9 月 5 日 ) .持续 期 (二 ,9 月 6 
日 至 9 月 8 日 )、 恢复 期 (5,9 月 9 日 至 9 月 14 日 )。 
在 划分 阶段 中 ,8 月 27 日 到 9 月 3 日 传播 略 有 波动 ,但 
环比 增长 率 基本 保持 不 变 ,是 潜伏 期 的 主要 特征 ;9 月 
4 日 当日 传播 量 出 现 激 增 现象 ,并 到 9 月 5 日 达到 了 传 
播 的 最 高 峰值 ,是 发 生 期 显著 的 传播 特征 ;9 月 6 日 到 
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9 月 8 日 传播 量 呈 现下 降 趋 势 , 且 增 长 率 保 持 稳定 ,是 
持续 期 显著 的 传播 特征 ;9 月 9 日 至 9 月 14 日 传播 量 
与 环比 增长 率 均 波动 变化 ,但 总 体 传播 量 普 遍 偏 低 , 属 


于 恢复 期 特征 。 
ee 敌情 发 布 数 量 ( 条 ) 下- 环比 增长 率 


900 
800 1 
700 1 


这 图 4 新浪 微 博 中 所 涉 “无 籽 葡 萄 系 打 避 孕 药 " 
事件 微 博 发 布 数量 统计 


CN 本 研究 选取 k-means'" 算法 进行 聚 类 分 析 , 
mgais 算法 是 一 种 简单 高 效 的 聚 类 算法 ,在 文本 聚 类 中 
得 到 了 广泛 应 用 。 但 是 -means 算法 需要 预先 选 定 
值 C 案 类 个 数 ) ,其 聚 类 效果 很 大 程度 上 受制 于 最 佳 上 
倩 往 选 择 , 为 了 消除 最 佳 大 值 选择 对 实验 结果 的 影响 ， 
四 采用 手 肘 法 和 轮廓 系数 相 结合 的 方法 确定 最 佳 
值 ,通过 手 肝 法 获取 “ 肘 点 " 取 值 区 间 , 选取“ 肘 点 " 取 
值 疤 间 内 轮廓 系数 最 大 的 数值 作为 上 值 ”1。 

A 实验 评估 指标 设计 

己 实验 结果 的 评估 可 以 用 于 检验 提出 的 方法 的 准确 
性 和 有 效 性 。 采 用 查 准 率 precision( 简 记 为 P) .召回 率 
re 了 1( 简 记 为 R) 和 综合 两 者 的 指标 P-measure 值 作为 
检验 实验 效果 的 评价 指标 , 查 准 率 用 于 检验 模型 的 准 
确 性 , 杏 全 率 用 于 检验 模型 的 完备 性 , 杏 准 率 和 杏 全 率 
是 相互 制约 的 关系 ,因此 用 值 综合 评价 两 者 。 其 计 
算 公式 分 别 如 下 所 示 : 


p= 记 公式 (8) 
R= 一 公式 (9) 
2xPxP 

下 = 公式 (10) 


其 中 ,a 为 实验 识别 正确 的 聚 类 的 微 博 数 ,2 为 实 


率 , 计 算 公式 如 下 : 


F, -Fr 
万 = 一 六 x100% 公式 (11) 
旧 


其 中 ,Fy 为 实验 中 改进 算法 的 五 值 ,Fi 为 实验 中 
对 比 算法 的 下 值 。 
4.4 实验 结果 与 分 析 

采用 4.2 介绍 的 方法 确定 关键 词 相 似 度 算法 的 最 
优 正 值 与 超 边 相似 度 算法 的 最 优 正 值 相同 , 均 为 8 ,与 
人 工 聚 类 个 数 一 致 。 

为 了 验证 本 文 提 出 的 超 边 相似 度 算法 应 用 于 微 博 
文本 主题 聚 类 的 效果 ,分 别 以 仅 考虑 微 博 文本 内 容 的 
余弦 相似 度 聚 类 方法 和 常用 的 短文 本 聚 类 方法 FL 
HC'” 作为 对 照 方法 。 分 别 采 用 三 种 算法 对 “无 籽 葡 
萄 系 打 避孕 药 " 微 博 数据 进行 聚 类 ,8 个 子 主题 的 聚 类 
效果 如 图 5 所 示 : 


一 4 一 余下 相似 度 聚 类 。 ~- 量 ~ FIHC 


-站 超 边 相 似 度 聚 类 


指标 F 的 值 
So 
人 


#1 #2 #3 振 #5 #6 #7 #8 


5 不 同 相似 度 算法 的 聚 类 效果 比较 


采用 本 文 提 出 的 超 边 相似 度 聚 类 方法 获得 的 8 个 
子 主题 聚 类 指标 下 值 均 高 于 其 它 2 种 方法 , 即 本 文 提 
出 的 改进 算法 主题 识别 效果 普遍 高 于 余弦 相似 度 聚 类 
方法 和 FIHC 方法 。 特 别 是 将 余弦 相似 度 聚 类 方法 应 
日 于 微 博文 本 时 ,其 聚 类 效果 普遍 偏 低 ,除去 妈 子 主 
题 ,其 余子 主题 的 了 值 均 在 0.5 以 下 。 

纵 观 不 同 子 类 聚 类 结果 , 汐 子 主题 的 超 边 相 似 度 
算法 ( 刁 值 为 0.80) 的 聚 类 效果 显著 优 于 余弦 相似 度 
聚 类 算法 (下 值 等 于 0. 20 ,效果 改善 指标 为 300% ) 和 
FIHC 算法 (F 值 等 于 0.56 ,效果 改善 指标 为 42.86% ) 
的 聚 类 效果 。 进 一 步 对 三 种 聚 类 算法 对 #5 子 主题 的 
聚 类 结果 进行 分 析 ( 见 图 6) ,余弦 相似 度 聚 类 方法 和 
FIHC 聚 类 方法 对 兹 子 主题 聚 类 效果 低 的 原因 是 混 人 
了 部 分 机 .起 . 妊 和 的 子 主题 。 从 主题 内 容 看 ,所 和 护 


> 


验 识别 的 该 类 别 的 微 博 总 数 ,ce 表示 微 博 数据 集中 该 类 
的 微 博 数 目 。 

在 对 比试 验 分 析 中 引入 效果 改善 率 指标 ( Effect 
Improvement , 简 记 为 E17) ,用 以 评价 新 算法 的 改善 效 


子 主题 发 生 在 与 情事 件 的 潜伏 期 ,这 个 阶段 人 们 开始 
对 “无 子 葡萄 系 打 避孕 药 ” 这 个 与 情事 件 进 行 关注 并 
展开 传播 , 妈 、. 交 和 #7 子 主题 发 多 生 在 奥 情 事件 的 发 
生 期 和 持续 期 ,其 大 都 围绕 “无 子 葡萄 系 打 避 孕 药 ”是 
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谣言 这 个 核心 主题 展开 的 不 同 角 度 的 讨论 ,这 几 类 子 
话题 文字 表述 具有 极 强 的 相似 性 ,所 以 使 得 仅 以 微 博 
文本 为 分 析 对 象 的 余弦 相似 度 聚 类 方法 和 FIHC 算法 
很 难 准确 区 分 其 相似 度 差异 ; 超 边 相 似 度 算法 ,基本 识 
别 出 了 兹 子 主题 ,但 混淆 了 少量 的 检 和 瓜子 主题 ,对 
择 \ 和 #7 进行 进一步 分 析 , 发 现 检 和 兹 是 官方 通过 
专业 知识 辟谣 , 反 是 大 众 通 过 常识 和 现 有 知识 进行 寿 
谣 , 这 类 微 博 的 关键 词 特 征 \、 时 序 阶段 .情感 特征 和 社 
交 特 征 都 更 容易 趋 于 一 致 ,所 以 超 边 相似 度 算法 对 这 
些 子 主题 进行 辨识 时 发 生 了 偏差 。 


@ 余弦 相似 度 聚 类 AFIHC 口 超 边 相似 度 聚 类 
#1 

Oo Re 300 十 ~ Ss > 可 
> 六 20 十 XK \ 
©) yy/ oo A NN 
ON #7 人 人‘ 7 py 7 #3 
©O CO 
©O oy 0 vA 
< 有 
CD 将 
ON 


©O 6 奴 子 主题 三 种 算法 的 聚 类 结果 
CN 
< 利用 余弦 相似 度 聚 类 算法 与 FIHC 算法 对 整个 


为 


本 


“于 好 区 区 打 避 孚 药 "这 一 与 情事 件 的 主题 聚 类 什 
分 硕 为 0.44 和 0. 50 ,采用 超 边 相 似 度 聚 类 方法 的 斑 值 
为 5-74 ,效果 改善 显著 ,效果 改善 率 分 别 为 68. 18% 和 
48 到 。 本 研究 从 实践 上 进一步 验证 了 对 于 微 博 的 相似 
度 钟 算 仅 从 文本 层 考虑 是 不 够 的 ,一 个 与 情事 件 中 , 微 
博 的 社交 转发 信息 .时 序 阶段 信息 和 情感 信息 都 与 微 
博 与 情 主题 形成 密切 相关 ,对 这 些 特征 信息 的 有 效 挖 
据 可 以 提高 微 博 主题 发 现 的 准确 度 。 
4.5 ”结论 与 讨论 

本 研究 使 用 超 网 络 方法 模拟 微 博 与 情 主题 形成 传 
播 机 制 , 提 取 了 与 与 情 主题 形成 密切 相关 的 4 个 特征 
要 素 , 即 微 博 用 户 (Who) .时 序 阶段 (When) ,情感 特征 
(How) 和 微 博 内 容 ( What) ,构建 了 包含 社交 相似 度 、 
时 序 相似 度 、 情 感 相似 度 和 关键 词 相似 度 的 超 边 相 似 
度 算法 ,之 后 将 其 作用 到 微 博文 本 聚 类 中 。 最 后 通过 
从 新 浪 微 博 采 集 “ 无 籽 葡 萄 系 打 避孕 药 "这 一 与 情事 
件数 据 进行 试验 ,从 严 值 和 效果 改善 率 这 2 方面 进行 
评估 ,验证 了 超 边 相 似 度 算法 有 效 性 。 其 研究 结果 为 
突 发 事件 管理 部 门 等 利益 相关 者 准确 获取 与 情 主题 信 


息 、 进 行 风险 控制 提供 借鉴 。 

下 一 步 工作 主要 从 以 下 四 个 方面 展开 :中 深入 分 
析 和 与 情 主 题 传播 特征 , 细 化 网 络 奥 情 超 网 络 模型 中 的 
节点 及 关系 ,提高 超 网 络 模 型 的 适用 性 、 完 整 性 和 有 效 
性 。 本 文采 用 的 超 网 络 模 型 中 情感 子 网 和 时 序 子 网 划 
分 较为 粗 久 与 社交 子 网 和 关键 词 子 网 节点 数量 相差 县 
殊 ,进行 网 络 结构 分 析 时 会 一 定 程度 影响 分 析 结 果 ,此 
外 粗 粒 度 的 子 网 结构 可 能 会 漏 掉 一 些 关 键 特征 ,使 得 
最 终结 果 有 别 于 真实 情况 。@) 进 一 步 优 化 各 层 子 网 相 
似 度 计算 方法 ,提高 聚 类 效果 。 特 别 是 关键 词 相 似 度 
算法 ,本 研究 采用 的 是 基于 统计 的 TF-IDF 方法 提取 微 
博 特征 词 ,采用 余弦 相似 度 算 法 进行 相似 度 计 算 ,缺乏 
语义 关联 ,使 得 对 于 社交 转发 信息 .时序 阶 段 信息 和 情 
感 信息 都 相似 的 微 博 缺乏 主题 辨识 能 力 (至 、 乒 和 # 
7) ,后 续 在 关键 词 子 网 也 将 考虑 结合 语义 相似 度 的 相 
关 算法 模型 ;四 进一步 拓展 本 研究 中 提出 的 方法 在 更 
大 范围 内 、 多 网 络 仁 情事 件数 据 集 上 的 实验 ,充分 验证 
方法 的 普 适 性 和 可 迁移 性 。 电 利用 超 网 络 模型 分 析 与 
情 主 题 形成 .变化 的 诱因 ,揭示 熏 情 主题 传播 模式 ` 规 
妾 ,为 与 情 治 理 研究 提供 帮助 。 
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Microblog Similarity Based on Super Network and Its Application 
in Microblog Public Opinion Topic Detection 
Liang Xiaohe Tian Ruya Wu Lei Zhang Xuefu 
Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081 

Abstract: | Purpose/ significance | Accurate calculation of microblog similarity can improve the efficiency of mi- 
croblog topic mining, and has practical significance for public opinion governance and information security. Aiming 
at the problem of sparse and high-dimensional microblog text, this paper proposes a super-edge similarity algorithm 
incorporating non-text features of microblog. | Method/ process | The mechanism of microblog public opinion was an- 
alyzed, and the formation of microblog public opinion topic formation were expressed by super network model, and 
the algorithm of super-edge similarity was constructed by calculating the similarity of each subnet layer and the contri- 
bution of each subnet layer to the topic formation. | Result/ conclusion | It was found that the similarity method pro- 
posed in this paper is helpful to improve the topic clustering effect of microblog public opinion information. Especially 

r micro blog with high similarity of literal expression, it has obvious subject differentiation. 
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